통계학이 이론적으로 확립되기 이전부터 데이터를 활용하여 사회적 문제를 풀고 가치를 창출하고자하는 활동이 활발히 진행되었듯이, 데이터 과학을 산업현장에 적용하여 성공을 거둔 사례도 많고, 최근 유니콘으로 지칭되는 신생 스타트업 거의 모두 데이터 과학을 기업의 핵심역량으로 삼고 있다. 통계학과 차별화되는 데이터 과학 방법론의 핵심 내용을 응집하고 있는 데이터 과학 도구상자로 Tidyverse(타이디버스, 깔끔한 세상)를 들 수 있다. Tidyverse는 지구상 유일한 운영체제로 인정받고 있는 유닉스 운영체제의 철학을 계승하여 데이터 과학의 사실상 운영체제로 자리매김하고 있다. 거슬러 올라가 마이크로소프트의 개인용 컴퓨터 윈도우 운영체제에서 보았듯이 구글의 안드로이드 운영체제는 스마트폰을 하나의 산업으로 자리잡는데 커다란 기여를 했고, 더 나아가 안드로이드 생태계의 지속적인 성장도 담보하고 있고 있다. 데이터 경제를 굳건히 지탱하는 데이터 과학 운영체제인 Tidyverse는 데이터로부터 창출된 가치를 API로 만들어 더 큰 가치를 창출 시킬 수 있도록 학계는 물론이고 공공 및 산업계에도 데이터를 원자재로하는 선순환 경제성장모형을 만들어가는데 커다란 역할을 수행할 것으로 기대된다.
과거 석유가 가장 중요한 자원으로 풍미하던 시절이 있었다. 하지만 이제 더이상 석유가 가장 중요한 자원이 아니라 이제는 누구라도 데이터(Data) 라고 말하는 것이 어색하지 않은 세상이 되었고 많은 분들이 이에 동의하고 있다. [1]
원유를 정제하게 되면
데이터 과학의 목표는 원자료(raw data)를 또다른 형태로 수작업 혹은 자동화하는 프로그램을 작성하여 전환하거나 매핑하는 과정이다. 데이터 과학자에 관한 하바드 비즈니스 리뷰 기사 에 따르면, 21세기 가장 인기있는 직업이 데이터 과학자[2]로 친송받고 있지만, 데이터 랭글링에 관한 뉴욕타임즈 기사[3]에 따르면 데이터 과학자 시간의 50% ~ 80% 시간을 데이터를 수집, 준비, 정제 등의 노동집약적인 작업에 소모하는 것으로 보고되고 있다.
데이터 과학은 컴퓨터와 사람이 데이터 프로그래밍 언어(예를 들어, R)로 소통하는 과정으로 이해할 수 있다. 사람이 인지하여 생각한 것을 코딩을 통해 기술하고 이를 컴퓨터에 넣어주면, 컴퓨터가 이를 실행하는 과정이다. 과거, 컴퓨터 자원이 희귀하여 최대한 컴퓨터을 활용하는 점에 초점을 맞춰 데이터 과학 아키텍처가 설계되었다면, 현재는 클라우드, 오픈소스, 오픈 데이터, 인터넷에 연결된 수많은 컴퓨터로 말미암아 사람이 가장 중요한 자원이 되었고, 컴퓨터에 작업명령을 기술하는 코딩도 기계중심 프로그래밍 언어에서 인간중심 프로그래밍 언어로 진화하고 있다.
전통산업 난이도에 따라 마치 경공업, 중화학공업, 반도체 전자공업과 같이 난이도가 높아짐에 따라 창출되는 가치가 달라지듯이 주어진 데이터 자원을 가지고 창출되는 가치는 기술 난이도에 따라 달라진다. 가트너가 제시한 데이터를 활용하는 4단계 즉, 기술분석, 진단분석, 예측분석, 처방분석 단계에 따라 창출되는 가치는 달라지게 된다. 기술분석에서 진단분석을 통한 뒤늦은 깨달음 복기(Hindsight), 진단분석에서 예측분석으로 가는 깨달음/통찰력(Insight), 예측분석에서 처방분석을 통한 예지력/선견지명(Foresight)을 추구하고자 하지만, 그에 따른 어려움은 더욱 가중된다.
데이터 → 전이학습(transfer learning)
1. Economist T. The world’s most valuable resource is no longer oil, but data. The Economist: New York, NY, USA. 2017.
2. Davenport TH, Patil D. Data scientist. Harvard business review. 2012;90:70–6.
3. Lohr S. For big-data scientists,‘janitor work’is key hurdle to insights. New York Times. 2014;17:B4.
4. Collins G, Sisk D. API economy: From systems to business services. TechTrends. 2015.
5. Puschmann T, Alt R. Enterprise application integration-the case of the robert bosch group. In: Proceedings of the 34th annual hawaii international conference on system sciences. IEEE; 2001. pp. 10–pp.
6. Poikola A, Kuikkaniemi K, Honko H. Mydata a nordic model for human-centered personal data management and processing. Finnish Ministry of Transport and Communications. 2015.